知识图谱研讨实录03丨肖仰华教授带你读懂词汇挖掘与实体识别
The following article is from 知识工场 Author 知识工场
知识图谱是一种大规模语义网络,已经成为大数据时代知识工程的代表性进展。
知识图谱技术是实现机器认知智能和推动各行业智能化发展的关键基础技术。由复旦大学肖仰华教授策划的《知识图谱:概念与技术》课程体系,已在国内进行了多次巡回演讲,受到参会人员一致好评。
课程主要目的和宗旨是系统讲述知识图谱相关知识,让同学们对知识图谱的理论和技术有一个系统的认知。本实录来自该课程老师和同学的研讨。
下面让我们通过第三章课程《词汇挖掘与实体识别》的33条精华研讨,来进一步学习了解知识图谱技术内幕。文末可查看更多章节精华回顾。
本课程配套教材《知识图谱:概念与技术》。
/ 以下为课程第三章《词汇挖掘与实体识别》的研讨实录 /
1丨深度学习相比于传统机器学习有何优点?ML的三个关键要素分别是什么?
学生:
深度学习相比于传统机器学习的优点是:1. 降低了专家特征定义的代价;2. 捕捉隐式特征;3. 引入多个中间层的深度神经网络可以表达复杂的非线性函数映射。
ML的三个关键要素是:1. 模型选择,也就是F的确定;2. 优化准则,也就是L的确定;3. 优化方法,也就是优化问题求解过程。
2丨机器学习任务按照监督方式有哪几种典型分类?基本内涵是什么?
学生:
监督学习:给定完整的、有标签的数据进行训练,包含分类和回归。半监督学习:少数数据有标签,通过不同方法扩展有标签的数据集。弱监督学习:利用大量容易获得的弱标注数据提升机器学习的性能。无监督学习:主要是聚类、密度估计、降维等,给定没有标签的数据学习模式。3丨前馈神经网络与线性感知器以及循环神经网络有何差别?
学生:前馈神经网络是多层感知器,是非线性感知器,是单向无反馈的。线性感知器可以通过最优化方法对数据集进行分类,学习计算出超平面。循环神经网络(Recurrent Neural Network,RNN)是一类专用于处理序列数据的神经网络模型,只处理一个单一的输入单元和上一个时间点的隐藏层信息,可以反馈信息。
4丨卷积神经网络如何降低全连接网络的参数复杂性?
学生:CNN 首先在卷积层通过使用 kernel 进行局部的矩阵运算对数据进行降维,然后在池化层通过一些最大值或求平均的方法对矩阵进行再一次的降维。利用卷积神经网络,引入卷积操作,代替全连接层的矩阵运算。
肖仰华老师:局部连接:每个神经元不再和上一层的所有神经元相连,而只和一小部分神经元相连。这样就减少了很多参数。权值共享:一组连接可以共享同一个权重,而不是每个连接有一个不同的权重,这样又减少了很多参数。下采样:可以使用 Pooling 来减少每层的样本数,进一步减少参数数量,同时还可以提升模型的鲁棒性。
5丨图像数据处理和序列数据处理分别适用哪些深度神经网络模型?
学生:图像数据处理适合用卷积神经网络;序列数据处理适合用循环神经网络。
6丨什么是注意力机制?评估方法有哪些?
学生:注意力机制指的是模型在每一阶段的输出(例如,翻译任务中生成句子的每一个词)只需要从输入中的某些片段计算产生,而不需要处理整个输入。
评估方法:加性模型、点积模型、缩放点积模型、双线性模型。
肖仰华老师:加性模型、点积模型、缩放点积模型、双线性模型严格来说是各类 attention 的具体实现方式。
7丨常见NLP任务有哪些?分别是什么内容?输入输出是什么?
学生:
分词:输入一段文本,输出词的列表。
分句:输入一段文本,输入句子列表。
词性标注:输入一个已经分好词的序列,为里面的每个词打上词性类别标签。
命名实体识别:输入一段文本,输入文本里面的实体及其类别,如人名,地名,组织名。
依存句法分析:输入一个句子,输出一颗依赖解析树。
指代消解:输入一段文本,输出一个一个共指集合,集合中包含了指代同一个事物的词语。肖仰华老师:大家要注意 NLP 的几个层面,lexical,syntactic,semantic等等,各类具体的任务都可以归到这几大类。semantic 层面的内容与 KG 关系是极为密切的。KG 与 NLP 良性互动是现在最为热门的研究话题,KG 如何提升 NLP,NLP 如何实现更好的 KG,这两个方向都是值得关注的方向。
8丨文本向量化表示有哪些方法?基本思想分别是什么?
学生:
离散表示:one-hot(在语料库中,为每个字/词编码一个索引,根据索引进行 one-hot 表示,具有稀疏性。)、词袋表示(词袋表示常用于文本表示,直接将文本中单词的 one-hot 向量进行相加。)、N-Gram表示(与词袋模型原理相似,将相邻N个单词进行索引编码。比如,Bi-Gram 是将相邻两个单词进行索引。)
分布式表示:基于词计数( Word counting,根据大型文本语料库中特定字词与临近字词共同出现的统计值表达词向量)、基于预测(将词看作待学习的参数,根据学习的词向量建立自然语言的预测模型,往往伴随着语言模型的学习过程。)。
肖仰华老师:这里要提醒大家,基于语言模型的文本表示是当下的研究热点。19年 acl 上最热的话题就是预训练语言模型。
9丨领域短语质量从哪几个角度评估?有哪些统计指标特征?
学生:领域词汇挖掘指的是从给定的领域语料中自动挖掘属于该领域的高质量词汇的过程。高频率:一个 N-Gram 在给定的文档集合中要出现得足够频繁才能被视作高质量短语。比如,“COVID-19”。统计指标有:
一致性:N-Gram 中不同单词的搭配是否合理或者是否常见。比如,“卷积神经网络”与“卷积神”。信息量:一个高质量短语应该传达一定的信息,表达一定的主题或者概念。比如,“机器学习”与“这篇论文”。完整性:一个高质量短语还必须在特定的上下文中是一个完整的语义单元。比如,“vector machine” vs “support vector machine”。10丨领域短语挖掘和LDA、关键词抽取、新词发现的区别是什么?
学生:LDA主题模型的输入是若干篇文档,输出是每篇文档的主题分布和每个主题的词分布,根据这两个分布可以得到每篇文档中不同词的分数。领域短语挖掘的输入不区分多篇文档,而是直接将它们合并位一个大文档,输出是该领域的高质量短语。
关键词抽取是从语料中提取最重要、最有代表性的短语,抽取的短语数量一般比较少。
新词发现的主要目标是发现词汇库中不存在的新词汇,而领域短语挖掘不区别新短语和已有短语。
肖仰华老师:在实际应用中,先做词汇挖掘,再做 topic model 挖掘实现 phrase LDA 是很有道理的。
11丨如何判断一个短语是高质量短语的典型统计指标是什么?基本原则分别是什么?
学生:
TF-IDF:某短语在领域语料中经常出现而在外部文档中很少互相,则该短语很可能是该领域的高质量短语。C-value:考虑了短语长度、以及父子短语对词频统计的影响。NC-value:在C-value的基础上充分利用了短语丰富的上下文信息。PMI:挖掘组成部分一致性较高的短语。左(右)邻字熵:挖掘左(右)邻丰富的短语。
12丨无监督短语挖掘方法的主要流程有哪些?和有监督的方法主要区别在哪里?
学生:
基于无监督学习(缺乏标注数据的场景)的领域短语挖掘过程:准备人工智能语料,生成候选短语,计算统计特征,进行质量评分。基于监督学习(有标注数据的场景)的领域短语挖掘过程:准备人工智能语料,生成候选短语,计算统计特征并进行样本标注,进行分类器学习,进行质量评分。优化过后,在质量评分阶段之后,迭代地进行生成候选短语、计算统计特征并标注样本、分类器学习、高质量评分四步,知道候选词得分收敛。相比之下,无监督方法缺乏人工标注、分类器学习和循环迭代过程。
13丨Skip-Gram 和 CBOW 的基本思想分别是什么?负采样为什么解决了 Skip-Gram 中计算困难问题?
学生:
1.Skip-Gram:根据中间词预测上下文词语。2.CBOW:根据上下文单词预测中间缺失的单词。3.Skip-Gram方法计算困难的关键在于训练网络的时候,输出层使用了 softmax ,分母需要对词汇表进行求和,这样加大了参数的运算开销。而负采样则不需要使用词汇表的全部单词,只需要随机采样固定数目的词汇即可。14丨词向量表示的分布式假设是什么意思?
学生:两个语义相似的词通常具有类似的上下文。
肖仰华老师:这个假设在NLP相关文献中是经常出现的,大家一定要真正理解。
15丨哪个指标能够判断“苏格拉底”是比“苏格拉”更好的词汇?
学生:左(右)邻字熵。因为“苏格拉”的右邻字比较集中,总是“底”。
肖仰华老师:右邻字熵,“苏格拉”由于后面常常接了“底”,因而熵会非常低,而“苏格拉底”作为完整人名,后面可以接各种各样的词汇,熵会相对大一些。
(1)不同国家的语言互译(中国对应的英文是China)。
(2)具有相同含义的词(如开心和快乐)。
(3)中国人的字、名、号、雅称、尊称、官职、谥号等(如李白与青莲居士)。
(4)动植物、药品、疾病等的别称或俗称(土豆和马铃薯)。
(5)简称(河南简称为“豫”)。 肖仰华老师:大家回答挺好。大家可以看一下这个词条,这里罗列了数百种同义词的规则:“https://baike.baidu.com/item/百度百科:跳转关系”。我们的一个研究生曾经把这里罗列的大部分规则都实现了,这是非常有意义的。自然语言中的同义形式可以非常复杂。1)高准确率,低召回率,泛化性差。
2)无法挖掘出超出定义模式的同义词对。
3)有些同义词对在句子出现没法明显的模式。
4)有些同义词对很少同时出现。
5)模式是语料特定的,语言特定的,需要手工定义代价高。 肖仰华老师:第一个回答比较有代表性。模式不一定能抽取出所有可能的同义词对,因为有些同义词很少在在临近的文本中被同时提及。所以大家也不要盲目迷信基于模式的方法。1.缩略词的检测和抽取。
2.缩略词的预测。区别:缩略词的检测和抽取是通过分析大规模语料自动挖掘出缩写词对,要求缩略词对必须在语料中出现。缩略词的预测则只依赖于全称的相关文本,希望通过自然语言模型自动预测全称的可能缩略词形式。 学生B:缩略词抽取1.依赖文本提及实体及其缩略词的方式(模式),进行抽取。
2.依赖语料。缩略词预测1.根据规则或者文本生成模型,从实体名称生成相应的缩略词。
2.给定规则或模型后,不依赖语料。 肖仰华老师:大家掌握的都挺好。其实生成模型在知识获取 KG 构建中用的极少,我们实验室也才做了一两个这方面的工作。一般大家提到“知识获取“,想到的主要是靠抽取模型,很少考虑到用生成模型。所以缩略词预测(生成)是很有启发意义的,如果同学想选前沿 research topic,这个机会很大。1.字符集特征:如“厅”,“局”等表示机构的字常常会保留。
2.词级别特征:包括词本身如“大学”常常会被缩写为“大”,以及词性如地名大概率被保留。
3.位置特征:如一个词中第一个字和最后一个字有更大的机会被保留。
4.词的关联特征:如实体以“大学”结尾时实体中的地名常会被保留。图书推荐
《知识图谱:概念与技术》
肖仰华 等 编著
本书力求涵盖知识图谱相关的基本概念与关键技术,总结了十多个知识图谱工程项目的落地经验。
本书紧密围绕知识图谱开展知识体系的梳理,尽量突出知识图谱与相关学科的差别,尽可能的为大家清晰地界定知识图谱与各分支学科的根本不同。本书注重知识图谱的整个知识体系,从最基础的基本概念、基础理论到设计、技术、模型、方法都做了全面的介绍。
(扫码了解本书详情)
▶ 研讨实录回顾
热文推荐